The mechanism of existing style transfer algorithms is by minimizing a hybrid loss function to push the generated image toward high similarities in both content and style. However, this type of approach cannot guarantee visual fidelity, i.e., the generated artworks should be indistinguishable from real ones. In this paper, we devise a new style transfer framework called QuantArt for high visual-fidelity stylization. QuantArt pushes the latent representation of the generated artwork toward the centroids of the real artwork distribution with vector quantization. By fusing the quantized and continuous latent representations, QuantArt allows flexible control over the generated artworks in terms of content preservation, style similarity, and visual fidelity. Experiments on various style transfer settings show that our QuantArt framework achieves significantly higher visual fidelity compared with the existing style transfer methods.
translated by 谷歌翻译
The Position Embedding (PE) is critical for Vision Transformers (VTs) due to the permutation-invariance of self-attention operation. By analyzing the input and output of each encoder layer in VTs using reparameterization and visualization, we find that the default PE joining method (simply adding the PE and patch embedding together) operates the same affine transformation to token embedding and PE, which limits the expressiveness of PE and hence constrains the performance of VTs. To overcome this limitation, we propose a simple, effective, and robust method. Specifically, we provide two independent layer normalizations for token embeddings and PE for each layer, and add them together as the input of each layer's Muti-Head Self-Attention module. Since the method allows the model to adaptively adjust the information of PE for different layers, we name it as Layer-adaptive Position Embedding, abbreviated as LaPE. Extensive experiments demonstrate that LaPE can improve various VTs with different types of PE and make VTs robust to PE types. For example, LaPE improves 0.94% accuracy for ViT-Lite on Cifar10, 0.98% for CCT on Cifar100, and 1.72% for DeiT on ImageNet-1K, which is remarkable considering the negligible extra parameters, memory and computational cost brought by LaPE. The code is publicly available at https://github.com/Ingrid725/LaPE.
translated by 谷歌翻译
When reading a story, humans can rapidly understand new fictional characters with a few observations, mainly by drawing analogy to fictional and real people they met before in their lives. This reflects the few-shot and meta-learning essence of humans' inference of characters' mental states, i.e., humans' theory-of-mind (ToM), which is largely ignored in existing research. We fill this gap with a novel NLP benchmark, TOM-IN-AMC, the first assessment of models' ability of meta-learning of ToM in a realistic narrative understanding scenario. Our benchmark consists of $\sim$1,000 parsed movie scripts for this purpose, each corresponding to a few-shot character understanding task; and requires models to mimic humans' ability of fast digesting characters with a few starting scenes in a new movie. Our human study verified that humans can solve our problem by inferring characters' mental states based on their previously seen movies; while the state-of-the-art metric-learning and meta-learning approaches adapted to our task lags 30% behind.
translated by 谷歌翻译
无监督的句子嵌入学习最近由对比度学习方法(例如SIMCSE)主导,该方法保持积极对相似,并将负面对拆开。对比操作旨在通过在积极实例之间最大化相互信息来保持尽可能多的信息,从而导致句子嵌入中的冗余信息。为了解决这个问题,我们提出了一个基于信息最小化的对比度学习(Informin-CL)模型,以保留有用的信息并通过最大化相互信息并最大程度地减少无监督句子表示学习的正面实例之间的信息熵,从而丢弃冗余信息。具体而言,我们发现信息最小化可以通过简单的对比度和重建目标来实现。重建操作通过另一个正实例重构积极实例,以最大程度地减少正实例之间的信息熵。我们在下游任务中评估了我们的模型,包括受监督和无监督的(语义文本相似性)任务。广泛的实验结果表明,我们的Informin-CL获得了最先进的性能。
translated by 谷歌翻译
在这个时代,智能和低功率视网膜假体的需求高度要求,在这个时代,可穿戴和可植入的设备用于众多医疗保健应用。在本文中,我们提出了一个节能动态场景处理框架(Spikesee),该框架结合了尖峰代表编码技术和生物启发的尖峰复发性神经网络(SRNN)模型,以实现智能处理和极端的低功耗计算。尖峰表示编码技术可以用稀疏的尖峰火车来解释动态场景,从而减少数据量。采用受人视网膜特殊结构和尖峰加工方法的启发的SRNN模型,以预测神经节细胞对动态场景的响应。实验结果表明,所提出的SRNN模型的Pearson相关系数达到0.93,这表现优于视网膜假体的最先进的处理框架。得益于尖峰表示和SRNN处理,该模型可以以无倍数的方式提取视觉特征。与基于卷积的复发神经网络(CRNN)处理框架相比,该框架可实现12倍的功率。我们提出的Spikesee可以通过较低的能源消耗来更准确地预测神经节细胞的响应,从而减轻了视网膜假体的精度和功率问题,并为可穿戴或可植入的假体提供了潜在的解决方案。
translated by 谷歌翻译
在本文中,我们介绍了2022年多模式情感分析挑战(MUSE)的解决方案,其中包括Muse-Humor,Muse-Rection和Muse Surns Sub-Challenges。 2022年穆斯穆斯(Muse 2022)着重于幽默检测,情绪反应和多模式的情感压力,利用不同的方式和数据集。在我们的工作中,提取了不同种类的多模式特征,包括声学,视觉,文本和生物学特征。这些功能由Temma和Gru融合到自发机制框架中。在本文中,1)提取了一些新的音频功能,面部表达功能和段落级文本嵌入以进行准确的改进。 2)我们通过挖掘和融合多模式特征来显着提高多模式情感预测的准确性和可靠性。 3)在模型培训中应用有效的数据增强策略,以减轻样本不平衡问题并防止模型形成学习有偏见的主题字符。对于博物馆的子挑战,我们的模型获得了0.8932的AUC分数。对于Muse Rection子挑战,我们在测试集上的Pearson相关系数为0.3879,它的表现优于所有其他参与者。对于Muse Surst Sub-Challenge,我们的方法在测试数据集上的唤醒和价值都优于基线,达到了0.5151的最终综合结果。
translated by 谷歌翻译
以在线方式进行功能选择的在线流媒体特征选择(OSFS)在处理高维数据方面起着重要作用。在许多真实的应用程序(例如智能医疗平台)中,流媒体功能始终存在一些缺少的数据,这在进行OSFS(即如何在稀疏流式传输功能和标签之间建立不确定的关系)方面提出了至关重要的挑战。不幸的是,现有的OSFS算法从未考虑过这种不确定的关系。为了填补这一空白,我们在本文中提出了一个不确定性(OS2FSU)算法的在线稀疏流媒体特征选择。 OS2FSU由两个主要部分组成:1)潜在因素分析用于预测稀疏流特征中缺少的数据,然后使用划分功能选择,而2)使用模糊逻辑和邻里粗糙集来减轻估计流流之间的不确定性进行功能选择期间的功能和标签。在实验中,将OS2FSU与六个真实数据集中的五种最先进的OSFS算法进行了比较。结果表明,在OSF中遇到丢失的数据时,OS2FSU胜过其竞争对手。
translated by 谷歌翻译
视频框架插值是一项经典且具有挑战性的低级计算机视觉任务。最近,基于深度学习的方法取得了令人印象深刻的结果,并且已证明基于光流的方法可以合成具有更高质量的帧。但是,大多数基于流动的方法都假设两个输入帧之间具有恒定速度的线轨迹。只有一点点工作可以使用曲线轨迹执行预测,但这需要两个以上的框架作为输入来估计加速度,这需要更多的时间和内存才能执行。为了解决这个问题,我们提出了一个基于ARC轨迹的模型(ATCA),该模型仅从连续两个帧中就可以在前学习运动,而且轻量级。实验表明,我们的方法的性能要比许多参数较少且推理速度更快的SOTA方法更好。
translated by 谷歌翻译
低光图像增强是一个固有的主观过程,其目标随用户的美学而变化。在此激励的情况下,已经研究了几种个性化的增强方法。但是,基于这些技术中用户偏好的增强过程是不可见的,即“黑匣子”。在这项工作中,我们为低光图像提出了一个可理解的无监督个性化增强器(Iupenhancer),该图像建立了与三个用户友好型属性(亮度,色彩和噪音)有关的低光与未配对的参考图像之间的相关性。 。拟议的IUP增强剂接受了这些相关性的指导和相应的无监督损失函数的培训。我们的IUP-Enhancer不是“黑匣子”过程,而是带有上述属性的可理解增强过程。广泛的实验表明,所提出的算法会产生竞争性的定性和定量结果,同时保持出色的灵活性和可伸缩性。可以通过单个/多个参考,交叉归因引用或仅调整参数的个性化来验证。
translated by 谷歌翻译
尽管取得了令人鼓舞的结果,但最先进的交互式强化学习方案依赖于以连续监控或预定义的规则的形式从顾问专家那里获得监督信号,这不可避免地导致了繁琐而昂贵的学习过程。在本文中,我们介绍了一项新型的倡议顾问,在循环演员批判框架中被称为Ask-AC,该框架用双向学习者的实用主义者代替了单方面的顾问指导机制,从而实现了自定义的和有效的范围学习者和顾问之间的消息交换。 Ask-AC的核心是两个互补的组件,即动作请求者和自适应状态选择器,可以很容易地将其纳入各种离散的参与者 - 批判性架构中。前一个组件允许代理商在不确定状态的存在下首次寻求顾问干预,而后者则确定了前者可能遗漏的不稳定状态,尤其是在环境变化时,然后学会了促进对此类国家的询问行动。对固定环境和非平稳环境以及不同参与者 - 评分骨架的实验结果表明,所提出的框架显着提高了代理的学习效率,并与连续顾问监控获得的框架与表现相同。
translated by 谷歌翻译